Карань Анна студентка факультета биоинженерии и бионформатики
|
Комплексы ДНК-белок
Задание 1. Предсказание вторичной
структуры заданной тРНК.
В данном задании необходимо сравнить результаты предсказания вторичной структуры тРНК 2-х программ:
einverted (ищет инвертированные повторы) и RnaFold (работает
по алгоритму Зукера) с find_pair.
|
На Рис.1. изображена типичная структура тРНК и установленные названия участков.
Программа einverted получает на вход fasta файл искомой тРНК (в моем случае
1h4s.fasta
без последовательности белка) и выдает 2 файла sequence.fasta, в котором
записаны полученные комплементарные участки, и sequence.inv, в котором
найденные водородные связи в этих участках.
Если использовать стандартные параметры для работы данной программы, то она не выдает результатов.
Поэтому попробуем, варьируя параметры, получить предсказание наиболее близкое к реальной структуре.
После многих попыток изменения параметров самый лучший результат был получен, например, при следующих
параметров:
gap penalty [12]: 9
minimum score treshold [50]: 20
match score[3]: 5
mismatch score[-4]: -6
|
Для других параметров либо программа вообще ничего не обнаруживала, либо выделяла слишком крупный участок,
почти половину всей последовательность, из-за ослабленных параметров, несколько участков она не давала
никогда.
Теперь перейдем к программе RnaFold.
С помощью следующей программы был получен файл с предсказанной вторичной структурой:
cat 1h4s.fasta | RNAfold --MEA > 1h4s_rnafold.fasta
|
Однако, был получен файл не такого легко интерпретируемого вида, как в случае einverted .
>1H4S:T|PDBID|CHAIN|SEQUENCE
CGGGGAGUAGCGCAGCCCGGUAGCGCACCUCGUUCGGGACGAGGGGGGCGCUGGUUCAGAUCCAGUCUCCCCGACCA
(((((((..((((.........)))).(((((((...))))))).....(((((.......)))))))))))).... (-33.80)
(((((((..{({{.,,..,,|.||}|.(((((((...})))))).}.)}||||{.......}}}}}))))))).... [-35.45]
(((((((....................(((((((...))))))).....(((((.......)))))))))))).... {-27.10 d=13.30}
(((((((..((((.........)))).(((((((...))))))).....(((((.......)))))))))))).... {-33.80 MEA=56.71}
frequency of mfe structure in ensemble 0.0686331; ensemble diversity 19.36
|
Точки - нуклеотиды, не образующие водородные связи, вертикальные черточки - соответствующие нуклеотиды
должны быть в паре, круглые скобки - нуклеотиды, образующие пары.
Однако, также программа выдает файл -
1H4S:T|PDBID|CHAIN|SEQUENCE_ss.ps , в котором можно уже найти
в самом конце список номеров нуклеотидов, образующих пары. (этот файл я далее конвертирую в jpg-формат
и получаю изображение предсказанной вторичной структуры - Рис.2.)
Результаты, занесенные в итоговую таблицу, получены с 3-ей попытки.
/pairs [
[1 73]
[2 72]
[3 71]
[4 70]
[5 69]
[6 68]
[7 67]
[10 26]
[11 25]
[12 24]
[13 23]
[28 44]
[29 43]
[30 42]
[31 41]
[32 40]
[33 39]
[34 38]
[50 66]
[51 65]
[52 64]
[53 63]
[54 62]
] def
|
Даже на данном этапе сравнения программ, понятно, что RnaFold работает лучше, чем einverted,
так как хотя бы обнаруживает 4 участка с водородными связями, в отличие от 1.
![](1H4S_ss.jpg) Рис.2.
Иллюстрация предсказания структуры тРНК с помощью RnaFold |
![](1H4S_dp.jpg) Рис.3.
Полученная матрица для предсказанной вторичной структуры |
Таблица 1. Сравнение реальной и предсказанной вторичной стуктуры тРНК из
файла 1h4s |
Участок стуктуры | Позиции в стуктуре (по результатам find_pair) |
Результаты предсказания с помощью einverted | Результаты предсказания по алгоритму Зукера |
Акцепторный стебель | 5'-4-7-3' 5'-66-69-3' Всего 4 пары (теоретически должно быть семь) | 5'-1-7-3' 5'-67-73-3'
Обнаружены 7 теоретических пар, однако со смещением на нуклеотид |
5'-1-7-3'5'-67-73-3' Всего 7 пар, однако со смещением на нуклеотид |
D-стебель | 5'-10-13-3'5'-22-25-3' Всего 5 пар | ничего |
5'-10-13-3' 5'-23-26-3' Всего 5 пар, однако со смещением на нуклеотид |
Т-стебель | 5'-49-53-3'5'-61-65-3' Всего 5 пар | ничего |
5'-50-54-3' 5'-62-66-3' Всего 5 пар, однако со смещением на нуклеотид |
Антикодоновый стебель | 5'-26-32-3'5'-38-44-3' Всего 7 пар | ничего |
5'-28-34-3'5'-38-44-3' Всего 7 пар, однако со смещением на 2 нуклеотида |
Общее число канонических пар нуклеотидов | 19 | 7 | 22 |
Как видно из Таблицы 1. программа einverted вообще не имеет предсказательной силы. RnaFold
намного более валадиные результаты, обнаруживает все 4 стебля, для каждого дает верное число нуклеотидов,
однако, почти все водородные связи в стеблях смещены на одни нуклеотид.
В итоге, RnaFold имеет некую предсказательную силу, но конкретные взаимодействующие нуклеотиды
необходимо проверять.
Задание 2. Поиск ДНК-белковых контактов в заданной структуре
В данном задании необходимо изучить ДНК-белковые контакты белка.
В первом упражнении необходимо было создать скрипт со следующими свойствами:
1. Определяет множества атомов кислорода 2'-дезоксирибозы,
кислорода в остатке фосфорной кислоты, азота в азотистых основаниях
2. Дает последовательное изображение всей структуры, только ДНК в проволочной модели,
той же модели, но с выделенными шариками вышеописанных множеств.
|
Вот необходимый скрипт:
define.spt
Во втором упражнении нужно описать ДНК-белковые контакты в заданной стуктуре и сравнить количество
контактов разной природы.
Считать контакты будем по следующим правилам:
1.Будем считать полярными атомы кислорода и азота, а неполярными атомы углерода, фосфора и серы.
2.Назовем полярным контактом ситуацию, в которой расстояние между полярным атомом белка и полярным атомом ДНК меньше 3.5Å.
Аналогично, неполярным контактом будем считать пару неполярных атомов на расстоянии меньше 4.5Å.
|
Это В-форма ДНК, значит, рассматриваем соответствующие атомы большой и малой бороздки,
найденные в прошлом задании (для цитозина возьмем полученные мной данные, для остальных нуклеотидов
воспользуемся результатами однокурсников.
Таблица 2. Контакты разного типа в комплексе 1MHD.pdb |
Контакты атомов белка с | Полярные | Неполярные | Всего |
остатками 2'-дезоксирибозы | 1 | 3 | 4 |
остатками фосфорной кислоты | 5 | 1 | 6 |
остатками цитозина со стороны большой бороздки | 0 | 0 | 0 |
остатками цитозина со стороны малой бороздки | 0 | 0 | 0 |
остатками гуанина со стороны большой бороздки (Кузнецова Ксения) | 2 | 3 | 5 |
остатками гуанина со стороны малой бороздки | 0 | 0 | 0 |
остатками аденина со стороны большой бороздки (Волынкиа Инна) | 2 | 0 | 2 |
остатками аденина со стороны малой бороздки | 0 | 0 | 0 |
остатками тимина со стороны большой бороздки (Карпухина Анна) | 0 | 6 | 6 |
остатками тимина со стороны малой бороздки | 0 | 0 | 0 |
остатками всех азотистых оснований со стороны большой бороздки | 4 | 9 | 13 |
остатками всех азотистых оснований со стороны малой бороздки | 0 | 0 | 0 |
Скрипт, с помощью которого получена таблица:dif_contact.spt
В Таблице 2. рассматривались все контакты только с одной цепью белка - А.
*Остатки фосфорной кислоты контактируют с цепью A белка в том же участке,
что и остатки 2'-дезоксирибозы. Как видно из таблицы (+процерки атомов не со стороны бороздок), атомы цитозина
вообще не взаимодействуют c белком, это можно объяснить тем, что либо цитозина нет в предполагаемов участке
взаимодействия ДНК с цепью А, либо расстояние слишком большое для контакта (Рис.4)
|
Рис.4.
Изображение контакта ДНК с цепью А белка. Зелеными крупными шариками обозначены атомы
остатков фосфорной группы и 2'-дезоксирибозы, контактирующие с белков. В модели wireframe показаны
остатки цитозина, остальное ДНК в cartoons. Для цитозинов, лежащих в области контакта ДНК
и белка (участок большой бороздки между зелеными шариками) измерены самые меньшие расстояния между
атомами азотистого основания и белка. Это 4,5 и 4,09 для азота из цитозина, соответственно контактом
не является.
|
Как видно из таблицы с белком взаимодействуют атомы азотистых оснований только большой бороздки, что
, в принципе, следует и из положения белка относительно ДНК (он как раз входит в большую бородку) (Рис.5).
![](1mhd_all.jpg)
Рис.5. Изображение контакта ДНК с цепью А белка. Зелеными крупными шариками обозначены
все атомы ДНК, контактирующие с цепью. |
Также на основе таблицы можно предположить, что для взаимодействия белка и ДНК более важны полярные
контакты, что тоже подтверждается теоретически.
В третьем упражнении необходимо получить популярную схему ДНК-белковых контактов с помощью программы
nucplot.
Контакты, полученные с помощью nucplot изображены на Рис.6.
![](contact_1.jpg) |
![](contact_2.jpg) |
Рис.6. Две страницы, выданные nucplot, показывающие контакты ДНК с белком. |
Для данного белка, в принципе, контактов с ДНК не очень много, поэтому трудно выбрать
конкретную аминокислоту, образующую их наибольшее число, только если выделить Leu71, и на А и на В цепи
образующий 2 контакта.
Для участия в распозновании ДНК аминокислотный остаток должен связываться с азотистым основанием,
а не с какими-то другими частями ДНК, такими как сахар или остаток фосфорной кислоты. Это
сильно сужает круг подозреваемых на наиболее важный для распознования ДНК аминкоислотный остаток из-за
большого числа контактов с остатком фосфорной кислоты для данного белка. С азотистым основанием
взаимодействует Arg74(A и B), Lys81(A и B), Gln76(B). Даже после этого предположения
выбрать конкретный, самый важный аминокислотный остаток нельзя, остается 2 кандадата - аргинин и
лизин.
A |
B |
Рис.7. Изображение контактов предполагаемо наиболее важных для распознавания ДНК
аминокислот, на примере Arg74:A и Lys81:A. A) Контакт Arg74 c G2004. Измерены расстояния между
контактирующими атомами азота боковой группы аргинина и О6 и N7 гуанина. B) Контакт Lys81 и А1007
. Измерено расстояние между азотом боковой группы лизина и N7 аденина. |